现有的唱歌语音合成模型(SVS)通常在唱歌数据上进行训练,并取决于容易出错的时间对齐和持续时间功能或明确的音乐得分信息。在本文中,我们提出了Karaoker,Karaoker是一种基于多言式Tacotron的模型,该模型以语音特征为条件,该功能专门针对口语数据进行训练,而无需时间对齐。卡拉克(Karaoker)在从看不见的歌手/扬声器的源波形中提取的多维模板之后,综合了歌声和传输风格。该模型在连续数据上以单个深卷积编码为共同条件,包括音高,强度,和谐,实扣,cepstral峰值突出和八度。我们通过功能重建,分类和说话者身份识别任务扩展了文本到语音训练目标,这些任务将模型指导到准确的结果。除多任务外,我们还采用了Wasserstein GAN训练方案以及声学模型的输出的新损失,以进一步完善模型的质量。
translated by 谷歌翻译